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大 数据 技术 为 广播 的 长 足 发 展 提供 技术 支撑 


摘 要 : 本 文 提 出 了 大 数据 技术 概念 、 特 点 及 对 广播 媒体 的 重大 意义 ， 介 绍 了 大 数据 技术 管理 平台 的 构建 方式 及 采用 的 关键 
技术 ， 探 讨 了 大 数据 技术 原理 及 大 数据 在 安全 方面 遇 到 的 问题 。 结 合 电台 的 工作 实际 ， 详 细 叙 述 了 大 数据 技术 在 提高 广播 节 
目 制 作 质量 、 精 准 的 收听 率 调 查 、 信 息 获取 渠道 及 发 挥 主流 媒体 作用 等 方面 的 作用 。 
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类 型 ， 提 高 数据 解析 和 人 处理 能 力 。 数 据 清理 : 采集 的 大 数据 


大 数据 管理 对 广播 媒体 的 意义 不 在 于 它 的 海量 数据 ， 而 
是 在 于 对 这 些 有 用 的 信息 进行 媒体 化 的 信息 整理 ， 也 就 是 让 
大 数据 成 为 广播 媒体 的 一 种 有 价值 的 工具 ， 通 过 对 音频 数据 
的 深度 挖潜 ， 实 现 广播 媒体 资产 的 保值 增值 。 广 播 媒体 如 何 
融入 大 数据 时 代 ， 搭 建 大 数据 管理 平台 ,利用 对 大 数据 的 采 
集 、 内 容 的 综合 分 析 改 变 广播 媒体 的 传播 方式 ， 创 新 营利 模 
式 ， 为 广播 节目 的 改版 、 名 牌 节目 和 名 牌 频率 创新 提供 决策 
依据 。 探 索 出 广播 媒体 在 新 的 媒体 环境 下 信息 传播 和 媒体 服 
务 的 发 展 之 路 ， 提 升 广播 的 核心 竞争 力 ， 是 广播 人 不 可 回避 
的 问题 。 
1. 大 数据 技术 特性 、 原 理 及 关键 技术 
1.1 大 数据 特点 

大 数据 也 称 之 为 海量 的 资料 ， 是 利用 现代 化 的 开 技 术 
产生 的 巨 量 信息 资产 ， 具 有 巨大 的 观察 力 、 决 策 力 、 高 成 长 
性 和 信息 种 类 多 样 性 等 特点 。 大 数据 管理 是 对 不 同 的 信息 来 
源 、 不 同 格式 的 信息 内 容 进行 收集 、 存 储 和 关联 分 析 ， 从 中 
获得 新 规律 ， 创 造 出 有 新 价值 的 信息 技术 和 服务 业态 ， 它 是 
数据 容量 巨大 、 种 类 繁多 、 索 引 和 调 取 速 度 极 快 、 可 用 价值 
高 的 巨型 数据 库 。 因 此 ， 大 数据 相 比 传统 数据 在 “快速 、 价 
EE、 优 化 ”三 个 方面 是 最 好 的 。 
1.2 大 数据 的 关键 技术 


| 


不 是 完全 都 有 用 的 ， 首 先 要 对 采集 的 数据 去 伪 存 真 和 去 粗 取 
精 ， 避 免 一 些 无 用 的 信息 对 有 用 信息 的 干扰 。 数 据 清理 的 目 
的 就 是 对 有 用 和 无 用 信息 进行 有 效 的 过 滤 和 分 离 ， 从 而 获得 
所 需要 的 有 用 数据 。 

(3 ) 大 数据 的 存储 和 管理 技术 。 大 数据 存储 与 监管 就 
是 把 收集 到 的 不 同 结构 的 数据 保存 到 所 建立 的 数据 库 中 ,并 
对 其 进行 管理 和 上 传 下 载 。 大 数据 存储 方式 有 高 速 读 存 的 存 
储 、 分 布 式 文件 存储 、 网 格 节 点 存储 、 去 元 余数 据 存储 及 高 
性 价 比 的 大 数据 存储 技术 。 大 数据 管理 技术 包括 数据 库 建 模 、 
数据 复合 、 不 同类 型 大 数据 管理 、 大 数据 查寻 及 可 视 化 等 相 
关 技 术 。 

(4 ) 大 数据 分 析 及 挖掘 技术 。 大 数据 分 析 提 升 了 现 有 的 
音频 节目 数据 高 效 利用 ,采取 面向 对 象 的 数据 联接 、 相 似 性 
居 接 大 数据 整合 ， 解 决 网 络 媒体 用 户 的 主观 好 恶 分 析 、 在 线 
收听 分 析 等 面向 互联 网 的 大 数据 分 析 技 术 。 大 数据 挖潜 技术 
是 从 庞大 的 、 不 完整 的 、 不 清晰 的 、 随 机 的 实际 数据 中 ， 提 
取 隐 藏 的 不 可 预知 的 ,但 又 确实 存在 的 有 用 信息 内 容 的 过 程 。 
1. 3 构建 大 数据 技术 管理 平台 

广播 的 大 数据 管理 需要 建设 大 数据 技术 管理 平台 ,来 实 
现 广播 音频 节目 、 文 字 稿 件 及 相关 的 广播 资源 在 平台 上 的 联 
接 、 存 储 、 解 析 、 共 建 共 享 、 索 引 调用 和 管理 的 目标 。 大 数 


(1) 大 数据 收集 技术 。 是 通过 频道 随 录 音频 节目 、 网 
络 广播 及 听众 互动 、 社 交 网 站 互动 所 收集 的 结构 化 、 非 结构 
化 和 半 结 构 化 的 巨 量 数据 。 利 用 两 个 功能 模块 实现 大 数据 采 
集 : 大 数据 智能 传 感 模块 即 数据 传 感 部 分 、 互 联网 数据 交换 
部 分 、 感 知 适配器 部 分 、 自 动 识别 系统 及 软件 硬件 联接 部 分 ， 
对 不 同 结构 的 巨 量 数据 进行 自动 咏 别 、 追 足 、 定 位 、 上 传 下 
载 、 信 号 转 码 、 监 管 、 预 处 理 等 。 大 数据 分 析 整 理 模块 : 将 
大 数据 平台 的 服务 器 虚拟 化 。 采 用 分 布 式 、 网 格 节 点 数据 存 
储 方式 ,大 数据 提取 、 存 储 、 集 聚 、 解 析 和 可 视 化 接口 技术 ， 
大 数据 的 网 络 数据 交换 及 数据 压缩 技术 ， 大 数据 加 密 技术 等 
完成 对 大 数据 的 处 理 。 

(2 ) 大 数据 初始 化 技术 。 是 对 收集 数据 的 辨别 、 分 析 、 
提取 、 整 理 等 操作 。 重 点 包含 两 个 方面 。 数 据 提取 : 可 将 这 
些 不 同 结构 类 型 的 数据 转化 成 统一 的 、 方 便 处 理 的 数据 结构 


据 平台 包括 音频 节目 联接 模块 、 存 储 模块 、 解 析 模 块 和 管理 
模块 四 个 模块 的 内 容 。 音 频 节 目 联 接 模 块 : 它 能 完成 最 基本 
的 技术 服务 功能 ， 向 电台 各 频道 不 同 格式 的 整体 节目 和 市 目 
素材 提供 不 同 的 类 型 的 数据 应 用 接口 ， 为 电台 的 音频 节目 大 
数据 平台 提供 最 基本 的 音频 数据 支撑 。 存 储 模块 : 它 是 大 数 
据 管理 平台 最 主要 的 部 分 ， 是 数据 采集 的 归属 地 和 资源 池 ， 
用 来 存储 不 同 格式 的 音频 数据 。 采 用 音频 的 元 数据 和 音频 节 
目 分 开 管理 ， 查 寻 节 目的 元 数据 内 容 很 少 ， 占 用 的 码 流 也 就 
很 少 ， 实 现 音频 节目 高 速 查询 功能 。 存 储 方式 采用 的 是 云 存 
储 结构 , 音频 节目 被 存储 在 云 存 储 系统 中 的 不 同 存储 节点 上 ， 
音频 节目 是 采用 高 速 并 行 的 访问 方式 ， 提 高 了 闻 目 的 音频 的 
上 传 和 下 载 的 速度 。 解 析 模块 : 它 是 大 数据 管理 的 核心 模块 ， 
采用 分 布 式 存放 和 并 行 网 格 计算 ,并 提供 数据 的 聚集 、 类 型 
划分 、 提 供 联接 、 测 算 和 可 视 化 插件 及 音频 数据 的 深度 挖潜 、 
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解析 、 开 发 软件 工具 。 管 理 模块 : 提供 音频 节目 、 元 数据 、 
编目 、 操 作 人 员 权 限 、 数 据 接口 、 系 统 服务 监控 、 平 台 运行 
维护 等 管理 功能 。 
1.4 大 数据 技术 原理 

大 数据 管理 不 能 用 某 一 台电 脑 完 成 任务 ， 应 利用 云 计算 
的 分 布 式 、 云 端 存储 、 虚 拟 化 、 高 速 并 行 数据 库 和 互联 网 等 
相关 技术 ,通过 云 计算 系统 平台 向 数 十 合 、 数 百 台 力 至 上 千 
台 计 算 机 分 配 工作 ， 并 行 计算 和 处 理 ， 然 后 再 进行 数据 的 汇 
总 ， 最 后 得 出 对 庞大 数据 进行 分 布 式 的 挖掘 后 的 运算 结果 。 

大 数据 的 技术 原理 包括 以 下 几 个 方面 : 数据 中 心 原理 : 
对 非 结构 音频 数据 处 理 从 以 “过 程 ”为 中 心 , 转换 成 以 “数据 ” 
为 中 心 ， 通 过 多 种 技术 对 不 同 来 源 的 信息 进行 整合 ， 从 而 获 
得 大 数据 。 数 据 的 价值 原理 : 大 数据 的 使 用 是 通过 互联 网 实 
现 的 ， 非 网 络 环境 全 产品 使 用 体现 在 功能 上 ; 互联 网 环境 
本 产品 使 用 体现 在 数据 上 。 全 标本 原理 : 从 过 去 的 部 分 样本 
转变 为 全 部 样本 ， 数 据 越 是 足够 多 ， 可 视 化 程度 越 清晰 、 受 
众 看 得 越 清 楚 。 注 重 效率 原理 : 是 由 注重 精准 度 变 为 注重 效 
率 ， 让 广播 媒体 的 发 展 决策 更 高 效 。 注 重 关 联 性 原理 :从 注 
重 因果 关系 变 为 注重 关联 性 ， 只 需 知 道 是 什么 ， 不 用 知道 为 
什么 。 事 件 预 测 原理 : 大 数据 最 重要 价值 是 事件 预测 ， 是 把 
云 计 算 的 网 格 运算 运用 到 巨 量 的 大 数据 上 来 ， 预 知事 件 发 生 
的 可 能 性 。 
1. 5 大 数据 的 安全 问题 

之 所 以 称 之 为 “大 数据 ”， 
言 息 量 庞大 。 它 能 把 不 同 结构 数据 经 过 整理 、 提 纯 、 解 析 后 
获得 有 利用 价值 的 信息 。 大 数据 不 仅 广播 媒体 喜爱 ， 黑 客 也 


是 因为 它 的 种 类 繁多 、 存 储 


题 : 大 数据 通常 经 过 云端 进行 数据 交互 ， 极 易 遭 到 黑客 的 攻 
击 ， 需 要 采用 安全 可 靠 的 大 数据 云 计 算 策略 。 网 络 防范 : 越 
来 越 多 的 线 上 交易 、 线 上 数据 互 换 、 线 上 互动 都 是 在 网 络 上 
进行 的 ， 使 黑客 得 手 的 机 会 不 断 增 加 ， 一 旦 出 现 问题 ， 大 量 
的 数据 会 丢失 ， 媒 体 的 声誉 及 经 济 利 益 遭 受 损失 ， 甚 至 还 会 


听 率 调查 数据 的 成 本 ， 为 电台 的 节目 改版 、 节 目 创新 提供 强 
有 力 的 数据 支撑 。 
2. 2 大 数据 使 广播 媒体 获得 的 信息 更 加 精准 

互联 网 上 聚集 了 数量 庞大 的 各 种 信息 , 它 包 括 音 频 节目 、 
视频 内 容 和 文字 稿件 ， 而 自 媒体 的 内 容 更 是 取 之 不 尽 ， 每 个 
网 络 用 户 都 可 以 成 为 信息 的 发 布 者 。 大 数据 的 采集 渠道 多 样 ， 
数据 种 类 繁多 ， 数 据 量 巨 大 ， 而 这 些 数 据 是 通过 多 个 大 型 数 
据 库 进行 数据 解析 、 分 类 、 上 归纳， 编辑 记者 可 从 类 型 繁杂 的 
数据 中 提取 出 对 广播 媒体 有 用 的 信息 ， 使 广播 媒体 获得 的 信 
息 更 加 精准 。 
2. 3 大 数据 助 推广 播 媒 体 发 挥 作用 及 媒体 资产 增值 

采用 大 数据 管理 对 广播 音频 节目 进行 深层 次 的 挖掘 和 管 
理 ， 将 使 这 些 普 通 的 音频 节目 产生 具有 数据 功能 的 价值 。 电 
台媒 体 资 源 的 真实 性 、 公 信 力 和 权威 性 一 直 被 社会 所 公认 ， 
对 大 数据 的 分 析 挖 掘 是 在 原始 数据 真实 可 信 的 基础 上 进行 
的 。 这 些 大 数据 可 为 广大 受众 和 其 他 媒体 提供 新 闻 信息 的 增 
值 服务 。 如 : 大 数据 可 以 对 财经 类 新 闻 进 行 分 类 、 整 理 、 归 
纳 ， 把 整理 出 来 的 数据 通过 网 络 平台 出 售 给 客户 和 受众 ; 让 
客户 了 解 国家 政策 、 经 济 走势 、 科 技 动向 、 市 场 行情 ， 并 进 
行 市 场 预测 和 引导 ; 扩大 了 网 络 自 媒体 的 真实 信息 的 来 源 ， 
占领 网 络 媒体 的 主 阵 地 ， 让 广播 媒体 发 挥 主流 媒体 应 有 的 作 
用 ， 避 免 虚假 新 闻 在 社会 的 负面 影响 。 这 样 无 疑 可 将 电台 的 
音频 节目 及 相关 数据 得 到 多 次 应 用 ， 提 升 电 台媒 体 资源 的 使 
用 率 和 再 利用 率 ， 让 电台 的 媒体 资产 增值 。 
3. 结语 

媒体 在 大 数据 时 代 的 竞争 就 是 媒体 大 数据 的 采集 .整理 、 
计算 分 析 和 应 用 能 力 强 与 弱 的 竞争 。 广 播 媒 体 只 有 掌握 了 大 
数据 的 采集 、 挖 掘 和 分 析 ， 并 从 中 获得 对 新 闻 内 容 更 加 深刻 
的 观察 、 理 解 和 预见 ， 才 能 制作 出 一 批 大 数据 媒体 节目 。 通 
过 对 大 数据 的 管理 和 分 析 ， 对 广播 的 发 展 格局 做 出 相应 的 调 
整 ， 为 广播 转型 发 展 提 供 有 价值 的 数据 。 广 播 媒体 完全 有 能 
力 成 为 大 数据 应 用 的 引领 者 ， 为 广播 媒体 未 来 取得 长 足 发 展 


发 生 法 律 纠纷 。 大 数据 加 密 : 大 数据 的 采集 、 存 储 、 数 据 在 
网 络 的 上 传 下 载 ， 均 通过 计算 机 和 移动 设备 ， 数 据 存 在 安全 
隐患 ， 一 旦 信息 泄露 将 导致 不 可 挽回 的 损失 ， 应 利用 透明 加 
密 技 术 对 大 数据 加 密 。 透 明 加 密 是 使 用 者 在 透明 加 密 环境 下 ， 
系统 采用 智能 方式 对 文件 加 密 和 解密 ， 当 退出 透明 加 密 环 境 
时 ， 黑 客 无 法 打开 自动 加 密 的 文件 ， 起 到 了 对 大 数据 的 保护 
效果 。 
2. 大 数据 技术 在 广播 中 的 应 用 
2. 1 大 数据 为 精准 的 收听 率 调查 提供 数据 支撑 

传统 广播 收听 率 调查 是 采用 随机 抽样 的 方式 ， 对 听众 收 
听 广 播 的 地 域 、 时 间 、 收 听 工 具 等 进行 信息 收集 统计 ， 它 是 
一 种 概率 统计 结果 ， 对 数据 内 容 的 分 析 很 少 。 利 用 大 数据 进 
行 收听 率 的 调查 具有 两 个 特点 : 一 是 不 依照 样本 数据 ， 采 用 
的 是 总 体 数据 。 二 是 大 数据 在 原理 和 应 用 上 更 加 科学 有 效 。 
所 收集 的 数据 大 幅度 增加 ， 数 据 参 数 也 不 断 更 新 ， 并 对 采集 
数据 进行 综合 分 析 和 深度 控 握 ， 知 其 然 更 知 所 以 然 ， 不 仅 可 
以 提高 收听 调查 数据 的 精准 性 ， 所 获得 的 数据 具有 丰富 性 、 
多 样 性 和 相关 性 ， 并 整合 出 收听 率 调 查 数据 库 ， 降 低 获 得 收 


探索 出 一 条 行 之 有 效 的 发 展 之 路 。 贺 
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